ICLR 2023 | 从2D图像学习如何在3D场景进行几何分解与操纵
作为人类,我们每时每刻都生活在 3D 场景中,并与之积极的交互。在生活实践中经常会产生一些拍脑袋的有趣想法,我们很容易能够发挥主观能动性对周围的场景中的物体进行改造和互动。但是在万物皆数字化的今天,想在虚拟世界里去随心所欲改变场景和其中的物体,并不是一件容易的事情。
为此,作者设计了一个简单的流程:DM-NeRF,它建立在 NeRF 成功的基础上,但能够将整个 3D 空间分解为物体场,并自由地操纵它们的几何形状,以实现逼真的新视图渲染。总体而言,DM-NeRF 可以同时恢复 3D 场景中的几何体,仅从 2D 图像中就能够学习分解和操作物体实例。
论文链接:
开源代码及数据集:
引言
提出了一个物体场,仅从 2D 图像中直接学习 3D 空间中每个对象的唯一编码,与常用的基于单图像的分割方法相比,显示出显著的鲁棒性和准确性。
提出了一种反向查询算法,以有效地编辑指定的对象形状,同时从新颖的视图生成逼真的场景图像。
展示了 3D 分解和操纵的卓越性能,同时还贡献了首个用于 3D 场景编辑定量评估的合成数据集。
2.1显式3D表示
为了表示对象和场景的 3D 几何结构,广泛使用体素网格、八叉树、网格、点云和形状基元。尽管在形状重建、补全、生成和场景理解方面取得了令人印象深刻的进展,但这些表示的质量本质上受到空间分辨率和内存占用的限制。因此,它们很难表示复杂的 3D 场景。
2.2 隐式3D表示
为了克服显式表示的离散化问题,最近提出了基于坐标的 MLP 来学习表示连续三维形状的隐式函数。通常可分为:1)有符号距离场 2)占用场 3)无符号距离场。其中,占用网络和有符号距离字段都只能恢复闭合的三维形状,并且很难表示开放的几何图形。这些表征已被广泛研究用于新视图合成和 3D 场景理解。由于其强大的表示能力,已经取得了令人印象深刻的结果,特别是在神经辐射场及其后续方法中。
为了从复杂场景中识别 3D 对象,现有的方法通常包括:1)基于图像的 3D 对象检测;2)基于三维体素的检测方法和;3)基于三维点云的对象分割方法。给定具有完整 3D 对象注释的大规模数据集,这些方法已经实现了优异的对象分割精度。然而,它们特别设计用于处理显式和离散的 3D 几何图形。因此,它们无法分割连续和细粒度的形状,并且无法支持几何体操作和逼真的渲染。
综上所述,这项任务极具挑战性,因为它需要:1)一种适用于连续和隐式 3D 场的物体分解方法,而不依赖任何 3D 标签进行监督,显然在连续 3D 空间中收集标签是不可行的;2)一种符合所学习的隐式和分解场的物体操纵方法,能够解决改变物体同时造成不可避免地引起的视觉遮挡。
方法:DM-NeRF
DM-NERF 由 3 个主要组成部分组成:1)现有的辐射场,用于学习空间中每个 3D 点的体积密度和外观;2)所述物体场学习用于每个 3D 点的唯一物体编码;3)直接编辑任何指定对象的形状并自动处理视觉遮挡的物体操纵器。
▲ 图1. DM-NERF工作流程
3.1 物体场 Object Field
在本节中,作者展示了物体场以及多个精心设计的损失函数可以在仅使用 2D 对象掩码的彩色图像的监督下正确地处理它们。
a. 为了解决第一个问题,作者使用 3D-BoNet 提出的最优关联和监督策略。如图 3 所示。
▲ 图3. 用于2D物体匹配和监督的ℓ2d_obj示意
b. 为了解决第二个问题,受助于估计的表面距离来监督 3D 空间中的未占用物体编码。如图 4 所示,一旦解出表面距离 d,就可以很容易地知道沿着光线的每个第 k 个采样点和表面点之间的相对位置。所以自然可以识别一定属于空白空间的样本点的子集,如绿色点所示,表面附近的样本点子集,如红色点所示和表面后面的样本点剩余子集,如黑色点所示。这种几何信息提供了监督空白空间的关键信号,即物体编码的最后一个维度。
▲ 图4.空白点识别
3.2 物体操作器 Object Manipulator
一旦很好地学习了物体场,物体操纵器旨在在指定目标对象、视角和操纵设置时直接编辑几何体并渲染新视图。一种简单的方法是获得明确的 3D 结构,然后进行手动编辑和渲染,明确地解决任何形状遮挡和碰撞问题。然而,从隐式场中评估密集的 3D 点是极其低效的。为此,作者引入了一种轻量级的反向查询算法来自动编辑场景几何体。
首先,需要解决操纵过程中物体之间潜在的冲突。这是非常直观的,这要归功于在物体编码的最后一个维度中对空白空间的特殊设计。
其次,由于视觉遮挡,表面点后面的物体编码可能是不准确的,因为它们没有得到充分优化。相比之下,沿着光线投影的物体编码往往更准确,主要是因为有用于强监督的 2D 标签真值。
最后,需要一个系统的程序来用已知的操作信息更新编码。为此,作者设计了一种反向查询方法。
反向查询:在 3D 空间中编辑,然后进行 2D 投影。如图 5 所示,对于沿着特定查询射线的任何 3D 采样点,给定目标(即待编辑)物体编码及其操纵设定(相对平移,旋转矩阵,缩放因子)。首先计算一个逆 3D 点 pk′,然后评估 pk 和 pk′ 是否属于目标物体,并且最后决定是否编辑编码。
▲ 图5.反向点计算
4.1 数据集
DM-SR:由于目前还没有适用于几何操作定量评估的 3D 场景数据集。因此,作者创建了一个包含 8 个不同且复杂的室内房间的合成数据集,称为 DM-SR。
第 1 组(无操纵):从上半球的视点渲染 400×400 像素的彩色图像和 2D 物体掩码。生成 300 个视图用于训练。
第 2 组(仅平移):选择一个物体沿 x 或 y 轴平移,平移距离为 0.3m。
第 3 组(仅旋转):选择一个物体以围绕 z 轴旋转约 90 度。 第 4 组(仅缩放):选择一个物体以缩小约 0.8×。
第 5 组(平移/旋转/缩放):选择一个物体同时平移约 0.3m,旋转约 90 度,缩小约 0.8×。
ScanNet:一个具有挑战性的大规模现实世界数据集。选择 8 个场景(每个场景中有 10 个对象)进行评估。每个场景都有大约 3000 张带有 2D 物体掩码和相机姿势的原始图像,其中平均选择 300 个视图进行训练,100 个视图进行测试。
4.2 实验结果
3D场景分解
使用100%准确的2D标签进行训练:
对具有 2D 标签噪声的鲁棒性:
可以看出,即使添加了 80% 的 2D 标签噪声在训练中是不正确的,作者的方法在测试/新视图上仍然获得了优异的对象分割分数(AP0.75=74.08)。相比之下,一旦超过 50% 标签噪声在训练中有噪声,两个基线方法都会灾难性地失败。
3D物体操纵/编辑
在新视图渲染的质量明显优于 PointNeRF 方法,尽管与表 1 中的不操纵相比,操纵后的质量有所下降,主要是因为照明因素没有分解,并且编辑对象物体的照明显示出差异。然而,物体分割仍然近乎完美。
参考文献
[1] https://arxiv.org/abs/2208.07227: https://arxiv.org/abs/2208.07227
[2] https://github.com/vLAR-group/DM-NeRF:https://github.com/vLAR-group/DM-NeRF
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」